DeepSeek - mô hình AI Trung Quốc đe dọa sự thống trị của Mỹ
DeepSeek, một mô hình AI Trung Quốc, đang gây lo ngại tại Thung lũng Silicon nhờ sức mạnh vượt trội và chi phí xây dựng thấp. Cuối tháng 12/2024, họ công bố miễn phí mô hình ngôn ngữ lớn LLM DeepSeek V3. Mặc dù vẫn còn một số vấn đề về phản hồi, mô hình này được đánh giá cao vì chỉ mất hai tháng để phát triển với chi phí dưới 6 triệu USD, sử dụng GPU H800 được Nvidia hạ cấp để tuân thủ lệnh cấm của Mỹ, thay vì các chip AI hàng đầu.
DeepSeek đã chứng minh khả năng vượt trội trong các bài kiểm tra chuẩn khi mô hình của họ vượt qua Llama 3.1 của Meta, GPT-4o của OpenAI và Claude Sonnet 3.5 của Anthropic với độ chính xác cao trong giải quyết các vấn đề phức tạp, toán học và mã hóa. Mô hình V3 cũng đánh bại đối thủ trên Aider Polyglot, một bài kiểm tra đánh giá khả năng của các mô hình AI. Theo DeepSeek, mô hình được đào tạo trên tập dữ liệu 14,8 nghìn tỷ token với 671 tỷ tham số, lớn hơn 1,6 lần so với Llama 3.
DeepSeek đã ra mắt mô hình mới mang tên DeepSeek R1 vào ngày 201, có khả năng lý luận và mã nguồn mở trên Github. Theo đánh giá từ bên thứ ba, AI này vượt trội hơn OpenAI o1 trong nhiều bài kiểm tra. DeepSeek R1 có chi phí chỉ 2,19 USD cho một triệu token đầu ra, rẻ hơn 96,4% so với 60 USD của OpenAI o1, theo Giám đốc sản phẩm Shubham Saboo.
Arnaud Bertrand, người sáng lập HouseTrip và Me Qi, đã so sánh rằng mô hình DeepSeek mới giống như việc phát hành một chiếc điện thoại có sức mạnh tương đương iPhone nhưng chỉ bán với giá 30 USD thay vì 1.000 USD. CEO Microsoft, Satya Nadella, đã khen ngợi khả năng suy luận và hiệu quả tính toán siêu việt của mô hình nguồn mở này tại Diễn đàn Kinh tế Thế giới ở Davos.
Chúng ta cần nhìn nhận nghiêm túc về tình hình ở Trung Quốc. Các chuyên gia đánh giá cao LLM mà DeepSeek đang phát triển, cho rằng họ có thể tạo ra một LLM chất lượng tốt thông qua quy trình chưng cất. Chetan Puttagunta từ Benchmark cho biết, họ sử dụng một mô hình lớn để cải thiện mô hình nhỏ hơn, và phương pháp này rất tiết kiệm chi phí.
Theo CNBC, những diễn biến gần đây cảnh báo về việc vị thế dẫn đầu của Mỹ trong lĩnh vực AI có thể đang bị thu hẹp. Điều này cũng đặt ra câu hỏi về hiệu quả của khoản chi khổng lồ của các công ty công nghệ lớn cho việc phát triển mô hình AI và trung tâm dữ liệu, khi Trung Quốc cũng có khả năng phát triển LLM mạnh mẽ với chi phí thấp. DeepSeek, do Liang Wenfeng thành lập vào tháng 5 năm 2023, có trụ sở tại Hàng Châu, Chiết Giang, và thuộc sở hữu của High-Flyer, một quỹ đầu tư hàng đầu tại Trung Quốc.
Công ty được High-Flyer tài trợ hoàn toàn và không có kế hoạch huy động vốn. Họ tập trung vào phát triển công nghệ nền tảng và tuyên bố sứ mệnh giải mã bí ẩn của AGI qua sự tò mò. Hiện tại, phòng thí nghiệm của công ty đang nghiên cứu các cải tiến về kiến trúc và thuật toán có thể thay đổi cuộc chơi trong lĩnh vực trí tuệ nhân tạo.
Trong số 7 startup AI lớn của Trung Quốc, DeepSeek là công ty kín tiếng nhất nhưng lại gây ấn tượng bất ngờ. Khác với nhiều công ty lớn khác, DeepSeek tự chủ tài chính và nhanh chóng có lãi. Thành công của họ đến từ việc đổi mới toàn diện trong kiến trúc mô hình AI, đặc biệt là việc phát triển kiến trúc MLA multi-head latent attention, giúp giảm mức sử dụng bộ nhớ xuống 5-13 lần so với kiến trúc MHA hiện có trên các LLM hàng đầu thế giới.
Cấu trúc DeepSeekMoESparse của công ty giúp giảm chi phí tính toán, từ đó giảm tổng chi phí. Tại Thung lũng Silicon, DeepSeek được xem là thế lực bí ẩn từ phương Đông kể từ khi mô hình DeepSeek V2 ra mắt năm ngoái. Các nhà phân tích của SemiAnalysis đánh giá đây là mô hình ấn tượng nhất năm, trong khi cựu nhân viên OpenAI Andrew Carr nhận định sản phẩm này rất thông minh và đáng kinh ngạc.
Jack Clark, cựu giám đốc chính sách của OpenAI và đồng sáng lập Anthropic, cho rằng DeepSeek đã tập hợp một đội ngũ tài năng xuất sắc để phát triển các mô hình quy mô lớn tương đương với máy bay không người lái và ô tô điện. Tuy nhiên, DeepSeek không phải là công ty Trung Quốc duy nhất tham gia vào lĩnh vực LLM hiệu suất cao và chi phí thấp. Trước đó, Kai-Fu Lee, chuyên gia AI hàng đầu Trung Quốc và là người sáng lập 01.
Một công ty đã phát triển mô hình AI chỉ với 3 triệu USD, sử dụng 2.000 GPU, nhưng sức mạnh tương đương GPT-4 của OpenAI, vốn tiêu tốn từ 80 triệu đến 100 triệu USD. Ngày 21/11, ByteDance, công ty mẹ của TikTok, cập nhật mô hình Doubao-1.5-pro và cho biết nó vượt trội hơn OpenAI trong bài kiểm tra AIME, đánh giá khả năng hiểu và phản hồi của các mô hình AI với hướng dẫn phức tạp.
Các công ty Trung Quốc như Moonshot AI, Minimax và iFlyTek đã công bố mô hình lý luận vào đầu tháng 1. Aravind Srinivas, CEO của Perplexity AI, cho biết sự tối ưu là nguồn gốc của các sáng chế.
Nguồn:vnexpress.net/deepseek-mo-hinh-ai-trung-quoc-de-doa-su-thong-tri-cua-my-4843208.html